Beautiful Soup

python - BeautifulSoup findAll() 给定了多个类？

我想从网站上抓取一个项目列表，并保留它们的显示顺序。这些项目被组织在一个表格中，但它们可以是两个不同类别之一(以随机顺序)。有没有办法提供多个类并让BeautifulSoup4找到任何给定类中的所有项目？我需要实现这段代码的功能，除了保留源代码中的项目顺序:items=soup.findAll(True,{'class':'class1'})items+=soup.findAll(True,{'class':'class2'}) 最佳答案你可以这样做soup.findAll(True,{'class':['class1','cla

给定 BeautifulSoup class gt section python html html-parsing

python - BeautifulSoup findAll() 给定了多个类？

我想从网站上抓取一个项目列表，并保留它们的显示顺序。这些项目被组织在一个表格中，但它们可以是两个不同类别之一(以随机顺序)。有没有办法提供多个类并让BeautifulSoup4找到任何给定类中的所有项目？我需要实现这段代码的功能，除了保留源代码中的项目顺序:items=soup.findAll(True,{'class':'class1'})items+=soup.findAll(True,{'class':'class2'}) 最佳答案你可以这样做soup.findAll(True,{'class':['class1','cla

给定 BeautifulSoup class gt section python html html-parsing

python - 如果对象也有其他类，Beautiful Soup 也找不到 CSS 类

如果一个页面有和，然后soup.findAll(True,'class1')会找到他们俩。如果有，但是，它不会被发现。如何找到具有某个类的所有对象，而不管它们是否也有其他类？最佳答案不幸的是，BeautifulSoup将其视为一个包含空格的类'class1class2'，而不是两个类['class1','class2']。一种解决方法是使用正则表达式而不是字符串来搜索类。这行得通:soup.findAll(True,{'class':re.compile(r'\bclass1\b')})

Beautiful python class code section screen-scraping beautifulsoup

python - 如果对象也有其他类，Beautiful Soup 也找不到 CSS 类

如果一个页面有和，然后soup.findAll(True,'class1')会找到他们俩。如果有，但是，它不会被发现。如何找到具有某个类的所有对象，而不管它们是否也有其他类？最佳答案不幸的是，BeautifulSoup将其视为一个包含空格的类'class1class2'，而不是两个类['class1','class2']。一种解决方法是使用正则表达式而不是字符串来搜索类。这行得通:soup.findAll(True,{'class':re.compile(r'\bclass1\b')})

Beautiful python class code section screen-scraping beautifulsoup

python - 使用 BeautifulSoup 在 HTML 中搜索字符串

我正在使用BeautifulSoup在特定页面上查找用户输入的字符串。例如，我想查看字符串'Python'是否位于页面上:http://python.org当我使用时:find_string=soup.body.findAll(text='Python'),find_string返回[]但是当我使用时:find_string=soup.body.findAll(text=re.compile('Python'),limit=1),find_string按预期返回[u'PythonJobs']当要搜索的单词有多个实例时，这两个语句之间的区别是什么使第二个语句起作用？

BeautifulSoup 中搜 code Python section

python - 使用 BeautifulSoup 在 HTML 中搜索字符串

我正在使用BeautifulSoup在特定页面上查找用户输入的字符串。例如，我想查看字符串'Python'是否位于页面上:http://python.org当我使用时:find_string=soup.body.findAll(text='Python'),find_string返回[]但是当我使用时:find_string=soup.body.findAll(text=re.compile('Python'),limit=1),find_string按预期返回[u'PythonJobs']当要搜索的单词有多个实例时，这两个语句之间的区别是什么使第二个语句起作用？

BeautifulSoup 中搜 code Python section

python - 如何使用 Python 从 HTML 获取 href 链接？

importurllib2website="WEBSITE"openwebsite=urllib2.urlopen(website)html=getwebsite.read()printhtml到目前为止一切顺利。但我只想要纯文本HTML中的href链接。我怎么解决这个问题？最佳答案试试Beautifulsoup:fromBeautifulSoupimportBeautifulSoupimporturllib2importrehtml_page=urllib2.urlopen("http://www.yourwebsite.co

python section BeautifulSoup code html hyperlink href

python - 如何使用 Python 从 HTML 获取 href 链接？

importurllib2website="WEBSITE"openwebsite=urllib2.urlopen(website)html=getwebsite.read()printhtml到目前为止一切顺利。但我只想要纯文本HTML中的href链接。我怎么解决这个问题？最佳答案试试Beautifulsoup:fromBeautifulSoupimportBeautifulSoupimporturllib2importrehtml_page=urllib2.urlopen("http://www.yourwebsite.co

python section BeautifulSoup code html hyperlink href

python - BeatifulSoup4 get_text 仍然有 javascript

我正在尝试使用bs4删除所有html/javascript，但是，它并没有摆脱javascript。我仍然在文本中看到它。我该如何解决这个问题？我尝试使用nltk效果很好，但是clean_html和clean_url将被删除。有没有办法使用汤get_text并获得相同的结果？我尝试查看这些其他页面:BeautifulSoupget_textdoesnotstripalltagsandJavaScript目前我正在使用nltk已弃用的功能。编辑这是一个例子:importurllibfrombs4importBeautifulSoupurl="http://www.cnn.com"html

BeatifulSoup4 BeatifulSoup code text section python beautifulsoup nltk

python - BeatifulSoup4 get_text 仍然有 javascript

我正在尝试使用bs4删除所有html/javascript，但是，它并没有摆脱javascript。我仍然在文本中看到它。我该如何解决这个问题？我尝试使用nltk效果很好，但是clean_html和clean_url将被删除。有没有办法使用汤get_text并获得相同的结果？我尝试查看这些其他页面:BeautifulSoupget_textdoesnotstripalltagsandJavaScript目前我正在使用nltk已弃用的功能。编辑这是一个例子:importurllibfrombs4importBeautifulSoupurl="http://www.cnn.com"html

BeatifulSoup4 BeatifulSoup code text section python beautifulsoup nltk